Musical Composition Style Transfer via Disentangled Timbre Representations

#survey #Music_Generation #Music_Style_Transfer #IJCAI #2019

ShuKumata.icon

Author: Yun-Ning Hung, I-Tung Chiang, Yi-An Chen, Yi-Hsuan Yang

Research institute: Academia Sinica, KKBOX Inc

The problem the authors try to solve:

Link to This Paper: https://arxiv.org/abs/1905.13567

1枚まとめ

https://gyazo.com/23bb7180cf87e0feba20c44c868e630f

https://docs.google.com/presentation/d/1XbyQKYknzh5kvUvIaF4afehztslbz4kmo5KT9Is5pUA/edit?usp=sharing

1. どんなもの？問題意識は？

Music Style Transferの中でもMusic Rearrangement(Composition Style Transfer)のタスクに対して、Music Transcriptionを行うネットワークを用いるアプローチで取り組んだ論文。

例えば、あるジャンルの曲を別ジャンルの曲に変えるタスクは、それぞれのジャンルの特徴を十分知った上で行わなければならず、人間でも数年の訓練が必要なほど難しいタスクである。機械だと、入力の曲のpitchをキープするだけでなく、それぞれの楽器がどの音程幅を演奏できるのかや楽器間の関係性を把握しておく必要がある。さらに、必要な対となるデータは十分に存在しない。

入力をAudio、出力を楽譜(どの音がどの楽器によって演奏されているか)とするネットワークを構築し、音楽の音色(timbre)と音の高さ(pitch)の潜在変数をdisentangleできるように敵対的に学習する。

二つのモデルを提案

AudioとMIDIのpairデータがあれば、学習できる

Audioがあれば、どんな音楽でもrearrangeできる

モデルとしてはAudioを入力として、CQTで画像的に変換し、AutoEncoder的に

潜在変数からピアノロールを出力するDecoderも学習させる

skip-connectionを用いてtimbreの潜在変数だけ抽出するモデルと、timbreとpitchの潜在変数を2つのEncoderと敵対的な学習でdisentangleに抽出するモデルの2通りを実験

音色変換を行う際は、音色の潜在変数を別楽器のものに置き換えてピアノロールを出力させる。

器楽編成を変えることをやっている

2. 先行研究と比べてどこがすごい？

筆者の知る限りではどんなPolyphonicな音楽もMusic Rearrangementできるようになった最初の論文。

筆者の知る限りではLearning disentangled representations for timber and pitch in music audio(同一著者)が音楽のAudioからdisentangleな表現を学習した唯一の論文であるが、その内容を発展させて、モデルの包括的な評価とMusic Rearrangementへの応用を行なった。

3. 技術や手法のキモはどこ？

入出力のデータ表現

入力はどんな長さのAudioでも可能

AudioをCQT(time-frequency representation)に変換して、full-convolutionalなencoder, decoderで扱う。

STFTよりもlogarithmic frequency scaleを利用している点でCQTが良い

pitchの認識において良い byDeep salience representations for f0 tracking in polyphonic music

低周波数域で解像度が良いため、重要な周波数域を検出するのに役立つ

出力は、ピアノロール形式

モデル

DuoED Model

Exploring disentangled feature representation beyond face identificationにinspired

Encoder-Decoderのバイナリクロスエントロピーをそれぞれ最小化する